18 research outputs found

    Catálogo de herramientas informáticas relacionadas con la creación, gestión y explotación de corpus textuales

    Get PDF
    Els corpus són recursos lingüístics importants que permeten obtenir una gran quantitat d'informació sobre l'ús real de la llengua. Aquest treball mostra els recursos més importants en aquesta àrea, ja sigui en forma de corpus ja compilats o de recursos informàtics que en faciliten la compilació, el processament i l'explotació.Los corpus son recursos lingüísticos importantes que permiten obtener gran cantidad de información sobre el uso real de la lengua. Este trabajo muestra los recursos más importantes en esta área bien sea en forma de corpus ya compilados como de recursos informáticos que facilitan su compilación, procesamiento y explotación.Corpora are important linguistic resources from which it is possible to obtain a great deal of information on real language use. This piece of work looks at the main resources in the field in question, encompassing both precompiled corpora and IT resources for their compilation, processing and exploitation

    A descriptive study about Wordnet (MCR) and linguistics synsets

    Get PDF
    Este artigo apresenta o trabalho realizado para aplicar a WordNet MCR ao domínio linguístico e discute as situações problemáticas geradas pela estrutura WordNet e pelas características inerentes ao domínio. Foi empregado o enfoque descritivo para explicar como a manutenção da estrutura original da WordNet pode afetar as extensões de um domínio específico. Nossos resultados mostram que, para poder ampliar os synsets de domínios específicos, é inevitável uma reorganização estrutural

    Spanish named entity recognition in the biomedical domain

    Get PDF
    Named Entity Recognition in the clinical domain and in languages different from English has the difficulty of the absence of complete dictionaries, the informality of texts, the polysemy of terms, the lack of accordance in the boundaries of an entity, the scarcity of corpora and of other resources available. We present a Named Entity Recognition method for poorly resourced languages. The method was tested with Spanish radiology reports and compared with a conditional random fields system.Peer ReviewedPostprint (author's final draft

    TASS2018: Medical knowledge discovery by combining terminology extraction techniques with machine learning classification

    Get PDF
    En este artículo presentamos la aproximación seguida por el equipo UPF-UPC en la tarea TASS 2018 Task 3 challenge. Nuestra aproximación puede calificarse, de acuerdo a los códigos propuestos por la organización, como H-KBS, ya que utiliza métodos basados en conocimiento y aprendizaje supervisado. El pipeline utilizado incluye: i) Un pre-proceso standard de los documentos usando Freeling (etiquetado morfosintáctico y análisis de dependencias); ii) El uso de una herramienta de etiquetado sequencial basada en CRF para completar las subtareas A (identificación de frases) y B (clasificación de frases), y iii) El abordaje de la subtarea C (extracción de relaciones semánticas) usando una aproximación híbrida que integra dos classificadores basados en Regresión Logística, y dos extractores léxicos para pares entity/entity y relaciones is-a y same-as.In this paper we present the procedure followed to complete the run submitted by the UPF-UPC team to the TASS 2018 Task 3 challenge. Such procedure may be classified, according the organization’s codes, as H-KB-S as it takes profit from a knowledge based methodology as well as some supervised methods. Our pipeline includes: i) A standard pre-process of the documents using Freeling tool suite (POS tagging and dependency parsing); ii) Use of a CRF sequence labelling tool for completing both subtasks A (key phrase identification) and B (key phrase classification), and iii) Facing the subtask C (setting semantic relationships) by using a hybrid approach that uses two Logistic Regression classifiers, followed by lexical shallow relation extractors for entity/entity pairs related by is-a and same-as relations.Peer ReviewedPostprint (published version

    Utilización de Wikipedia para la extracción de términos en el dominio biomédico: primeras experiencias

    Get PDF
    Presentamos un sistema de extracción de términos que usa la Wikipedia como fuente de información semántica. El sistema ha sido probado en un corpus médico en español. Comparamos los resultados usando un módulo de un extractor de términos híbrido y un módulo equivalente que utiliza la Wikipedia. Los resultados demuestran que este recurso puede utilizarse para esta tarea.We present a term extractor that uses Wikipedia as an semantic information source. The system has been tested on a Spanish medical corpus. We compare the results obtained using a module of a hybrid term extractor and an equivalent module that use the Wikipedia. The results show that this resource may be used for this task

    Extracción de candidatos a término mediante la combinación de estrategias heterogéneas

    No full text
    Síntesis de la tesis doctoral presentada en la Universidad Politécnica de Catalunya en junio de 2001, bajo la dirección de Horacio Rodríguez Hontoria y Maria Teresa Cabré Castellví.Summary of the PhD thesis presented at the Technical University of Catalonia in June 2001, under the supervision of Horacio Rodríguez Hontoria and Maria Teresa Cabré Castellví

    Extracción de terminología a partir de la Wikipedia

    Get PDF
    En este artículo presentamos una aproximación novedosa para obtener la terminología de un dominio utilizando las estructuras de páginas y categorías de Wikipedia de una forma independiente del dominio y de la lengua. La idea es aprovechar el grafo de categorías de Wikipedia a partir de un conjunto de categorías que asociamos con el dominio. Después de obtener las categorías del dominio seleccionado se extraen las páginas correspondientes con ciertas restricciones. El conjunto resultante de páginas y categorías se seleccionan como vocabulario inicial del dominio. Comparamos los resultados obtenidos mediante un modulo de un extractor híbrido, YATE y su equivalente que utiliza la Wikipedia. El resultado muestra que este recurso puede utilizarse para esta tarea. Aplicamos esta aproximación a cuatro dominios (astronomía, química, economía y medicina) y dos idiomas (inglés y castellano).In this paper we present a new approach for obtaining the terminology of a given domain using the category and page structures of the Wikipedia in a domain and language independent way. The idea is to take profit of category graph of Wikipedia starting with a set of categories that we associate with the domain. After obtaining the full set of categories belonging to the selected domain, the collection of corresponding pages is extracted, using some constraints. The set of titles of recovered pages and categories is selected as initial domain term vocabulary. The system has been evaluated substituting by it the term candidates analyzer module of an state-of-the-art term extractor, YATE. The results show that this resource may be used for this task overcoming some of the limitations of alternative knowledge sources. This approach has been applied to three domains (astronomy, chemistry, economics and medicine) and two languages (English and Spanish)

    A descriptive study about Wordnet (MCR) and linguistics synsets

    No full text
    Este artigo apresenta o trabalho realizado para aplicar a WordNet MCR ao domínio linguístico e discute as situações problemáticas geradas pela estrutura WordNet e pelas características inerentes ao domínio. Foi empregado o enfoque descritivo para explicar como a manutenção da estrutura original da WordNet pode afetar as extensões de um domínio específico. Nossos resultados mostram que, para poder ampliar os synsets de domínios específicos, é inevitável uma reorganização estrutural

    Towards quantitative concept analysis

    Get PDF
    En este trabajo presentamos una aproximación a la extracción automática de estructuras conceptuales a partir de colecciones desordenadas de documentos, aprovechando regularidades léxicas a gran escala en los textos. Es una técnica para asociar un término con una constelación de otros términos que refleje lo esencial del significado. La metodología es independiente de la lengua. Se explora una colección de documentos donde el término inicial aparece (como la colección que devuelve un motor de búsqueda con esa interrogación) y se construye una red en la que cada nodo es asignado a un término. La ponderación de las conexiones entre nodos se incrementa cuando los términos que representan aparecen juntos en un contexto de extensión predefinida. Posibles aplicaciones son la generación automática de mapas conceptuales, la extracción de terminología, la recuperación de términos, su traducción, localización, etc. El sistema se encuentra actualmente en desarrollo, sin embargo experimentos preliminares muestran resultados prometedores.In this paper, we present an approach to the automatic extraction of conceptual structures from unorganized collections of documents using large scale lexical regularities in text. The technique maps a term to a constellation of other terms that captures the essential meaning of the term in question. The methodology is language independent, it involves an exploration of a document collection in which the initial term occurs (e.g., the collection returned by a search engine when being queried with this term) and the building of a network in which each node is assigned to a term. The weights of the connections between nodes are strengthened each time the terms that these nodes represent appear together in a context of a predefined length. Possible applications are automatic concept map generation, terminology extraction, term retrieval, term translation, term localization, etc. The system is currently under development although preliminary experiments show promising results.This paper was supported by the ADQUA scholarship granted to the first author by the Government of Catalonia, Spain, according to the resolution UNI/772/2003

    Grafos de coocurrencia aplicados a la extracción de taxonomías en corpus científico-técnicos

    Get PDF
    Los grafos de coocurrencia léxica han sido utilizados en lingüística computacional en experimentos de desambiguación de sentidos pero hasta ahora no para la extracción de relaciones de hiperonimia, donde la metodología más usual ha sido la aplicación de patrones léxico-sintácticos. En este artículo mostramos que es posible extraer relaciones de hiperonimia entre términos utilizando estadísticas de coocurrencia. La clave del método reside en que las relaciones de coocurrencia no suelen ser simétricas en el caso de las relaciones de hiperonimia y, en consecuencia, es posible generar grafos dirigidos de coocurrencia que guardan una apariencia similar a la de una taxonomía. En el presente artículo presentamos experimentos con textos de la Wikipedia en castellano ordenados aleatoriamente, pero los resultados sugieren que la coocurrencia asimétrica entre términos es una propiedad intrínseca y macroscópica del discurso argumentativo en general.Word co-occurrence graphs have been used in computational linguistics mainly for word sense disambiguation and induction, but until very recently, not for the extraction of hypernymy relations, where the methodology most often applied is the use of lexico-syntactic patterns. In this paper, we show that it is possible to use word co-occurrence statistics to extract IS-A relations between entities in scientific and technical corpora. We exploit the fact that word co-occurrence often has a direction, that is, a term might co-occur with another, but this is very often not true the other way round. This means that one can represent co-occurrence as a directed graph and this graph resembles a taxonomy. In this paper we present an experiment with texts randomly extracted from the Spanish Wikipedia, but our findings suggest that this co-occurrence behavior is a macroscopic and intrinsic property of argumentative discourse in general.This research was funded by project APLE (Spanish Ministry of Science and Education: Ref. FFI2009-12188-C05-01/FILO) lead by Dr. M. Teresa Cabré
    corecore